想象一个世界,人工智能不仅能够识别日落,还能 从虚无中创作出一幅。这标志着一种范式转变:从 判别模型——专注于计算概率 $p(output|input)$ 来标注已有数据——转向广阔的生成式AI领域。我们正超越过去的边界划分,进入对数据本身 底层数据分布的建模。
定义架构格局
我们的分类体系由三种截然不同的数学策略主导,每种策略都为 多模态合成 和 图像合成提供了独特优势:
- 生成对抗网络(GANs):两个神经网络之间的一场高风险对决—— 生成器 (伪造者)与 判别器 (侦探)。这种 对抗性互动 迫使生成器创造出越来越难以辨别的内容。
- 扩散模型:在混沌中寻找秩序的过程。这些模型通过 迭代地添加和移除噪声 从数据中,最终掌握从纯粹噪声中塑造出稳健表征的能力。
- 自回归Transformer:序列的建筑师。像 生成式预训练Transformer(GPT) 通过 预测下一个标记 基于此前所有内容的上下文进行预测,从而构建出长距离连贯的叙事和结构。
架构协同
现代突破很少孤立地使用单一支柱。例如Stable Diffusion系统使用一个 Transformer 来理解你的文本提示,并利用一个 扩散模型 过程将视觉像素具象化,通常借助 变分自编码器(VAEs)的建模。